游戏教父 John Carmack:LLM 不是游戏的未来
Id Software 成立于 90 年代,作为创始人之一,我参与开发了《指挥官基恩》、《德军总部 3D》、《毁灭战士》和《雷神之锤》系列。我深感自豪的是,《雷神之锤》推动了 GPU 的发展和普及,间接促成了现代人工智能世界的形成。DeepMind 的 DML
Id Software 成立于 90 年代,作为创始人之一,我参与开发了《指挥官基恩》、《德军总部 3D》、《毁灭战士》和《雷神之锤》系列。我深感自豪的是,《雷神之锤》推动了 GPU 的发展和普及,间接促成了现代人工智能世界的形成。DeepMind 的 DML
当今AI领域,开源大型语言模型(LLM)的选择日益丰富,但如何权衡生成速度与任务性能,成为摆在开发者和项目负责人面前的核心难题。一项对40余款0.5B至235B参数量模型的最新基准测试,揭示了“越大越好”或“越快越好”并非放之四海而皆准的答案。本文将深入剖析这
在人工智能迅速发展的今天,AI助手正逐渐成为我们日常生活的一部分。当这些AI助手代表我们处理各种任务时,一个关键问题浮出水面:它们知道在什么情况下该分享什么信息吗?这就是"语境完整性"(Contextual Integrity,简称CI)的问题——简单来说,就
微软亚洲研究院(MSRA)联合清华大学、北京大学提出全新预训练范式RPT(强化预训练),首次将强化学习深度融入预训练阶段,让模型在预测每个token前都能先“动脑推理”,并根据推理正确性获得奖励。
在 2016 年的一次演讲中,Yann LeCun 曾将强化学习比喻成蛋糕上的樱桃。他提到,「如果把智能比作一块蛋糕,那么无监督学习就是蛋糕的主体,监督学习就是蛋糕上的糖霜,而强化学习则是糖霜上的樱桃。我们已经知道如何制作糖霜和樱桃,但却不知道如何制作蛋糕本身
无论是在注册新账户、发表评论,还是进行在线支付,我们都常常会遇到一个特殊的“关卡”——验证码。这些扭曲的字符、模糊的图片,或是需要我们完成特定操作的任务,似乎成了现代网络生活中一个不可或缺的组成部分。它们的存在感如此之强,以至于我们很少停下来思考:这个小小的机
加州大学戴维斯分校的Kunal Pai、独立研究者Parth Shah和加州大学戴维斯分校的Harshil Patel在2025年6月1日发布了一篇引人注目的研究论文《HASHIRU: Hierarchical Agent System for Hybrid
「我一直很困惑,语言模型怎么能从下一个 token 预测中学到这么多,而视频模型从下一帧预测中学到的却那么少?难道是因为大模型(LLM)其实是伪装的大脑扫描仪?」
「我一直很困惑,语言模型怎么能从下一个 token 预测中学到这么多,而视频模型从下一帧预测中学到的却那么少?难道是因为大模型(LLM)其实是伪装的大脑扫描仪?」
这次生病让她明白了立体视觉对空间交互具有决定性作用,“就像语言模型处理文本时需要理解上下文,物理世界的交互也必须建立在三维空间表征基础上”。
各位AI圈的老铁们,今天咱们来聊点硬核又不失风趣的话题——长上下文推理大模型的新晋王者:QwenLong-L1。别急着划走,这不是广告,而是一次技术圈的“吃瓜”现场,瓜保熟,技术干货管够!
导读聚焦 Data+AI 融合趋势下的数智开发平台构建,系统阐述当前数据平台在烟囱式架构下的技术挑战,提出 WeData 面向 Data+AI 的新一代数智开发平台的四层设计方案。
对于非法本学生而言,能否通过美国律师资格考试,是留学和职业规划中的重要问题。作为华人考生最热门的两大考场之一,纽约州(NY Bar)以其严格的学分审核机制成为非法本学生的核心挑战。本文将深入拆解NY Bar报考资格,包括学分计算、申诉策略等,帮助你更好地扫清障
在人工智能和机器人领域,让机器理解人类的自然语言指令一直是一个巨大挑战。想象一下,你对家里的厨房机器人说:"帮我把蛋糕放在盘子上。"如果厨房里有多个盘子,机器人应该如何选择?它应该主动询问你想用哪个盘子,还是自己做决定?这种情况就是我们所说的"指令歧义"问题。
本文已获授权转载。 原文链接: https://zhuanlan.zhihu.com/p/1915054612559426430 作者 PENG Bo 是 RWKV 创始人。
铠侠宣布,计划通过一款新型固态硬盘(SSD)彻底改变存储行业的现状。这款SSD的目标是在小块工作负载中实现超过1000万次/秒的输入/输出操作(IOPS),这比许多现代SSD的峰值速度快了整整3倍。此外,铠侠的“AI SSD”计划于2026年下半年发布,并将与
琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),实现超长文本的高效上下文建模。在 128K 超长序列上下文建模任务中,CCA-Attention 的推理速度是标准自注意力机制的 7.9 倍,同时键值缓存(KV Cache
本文作为“AI产品经理转型三部曲”的技术篇开篇之作,将深入浅出地剖析大语言模型(LLM)和智能体(Agent)的核心概念、工作原理及其在实际应用中的关键要点。
大型语言模型(LLMs)正在迅速逼近当代计算硬件的极限。例如,据估算,训练GPT-3大约消耗了1300兆瓦时(MWh)的电力,预测显示未来模型可能需要城市级(吉瓦级)的电力预算。这种需求促使人们探索超越传统冯·诺依曼架构的计算范式。
当前常见场景分双模态(如语音加文字、语音加情感、无声音视频配手语等和三模态。在技术结构上,多态和单模态从训练和推理两角度有本质区别。训练角度,单模态如语音识别基于强化学习无标注可行,但多模态涉及两个及以上模态时绕不过数据标注,成本和周期会长一些,且要解决向量统